Phát hiện bất thường là gì? Các bài báo nghiên cứu khoa học

Phát hiện bất thường là quá trình xác định các điểm dữ liệu không tuân theo quy luật thông thường, thường báo hiệu lỗi, gian lận hoặc hành vi bất thường. Quá trình này sử dụng các phương pháp thống kê, học máy và học sâu để phân biệt điểm lệch trong dữ liệu có cấu trúc hoặc phi cấu trúc phức tạp.

Khái niệm phát hiện bất thường

Phát hiện bất thường (anomaly detection) là quá trình nhận diện các điểm dữ liệu hoặc hành vi không tuân theo mô hình thông thường hoặc dự đoán được của hệ thống. Đây là một lĩnh vực trọng yếu trong khoa học dữ liệu, đặc biệt trong các môi trường mà sự bất thường có thể báo hiệu lỗi hệ thống, hành vi gian lận hoặc rủi ro tiềm ẩn.

Các bất thường thường chiếm tỷ lệ rất nhỏ trong toàn bộ tập dữ liệu, nhưng lại mang giá trị cảnh báo cao. Việc phát hiện chính xác giúp ngăn chặn sự cố, nâng cao hiệu quả vận hành và giảm tổn thất. Mô hình phát hiện bất thường có thể hoạt động theo thời gian thực hoặc theo lô, tùy vào yêu cầu cụ thể của ứng dụng.

Các lĩnh vực ứng dụng phổ biến bao gồm:

  • Giám sát mạng và an ninh hệ thống
  • Phát hiện gian lận tài chính
  • Chẩn đoán y khoa và hình ảnh y học
  • Kiểm soát chất lượng công nghiệp
  • Phân tích hành vi người dùng

Phân loại bất thường

Bất thường trong dữ liệu có thể được phân thành nhiều loại tùy theo đặc điểm và ngữ cảnh. Việc phân loại này giúp xác định phương pháp tiếp cận phù hợp và cải thiện hiệu suất mô hình phát hiện.

Ba loại bất thường phổ biến nhất bao gồm:

  • Bất thường điểm (point anomaly): Là các điểm dữ liệu cá biệt, tách biệt đáng kể khỏi phân phối dữ liệu thông thường.
  • Bất thường ngữ cảnh (contextual anomaly): Là dữ liệu có thể bình thường trong một ngữ cảnh nhưng trở nên bất thường trong một hoàn cảnh khác, ví dụ như nhiệt độ cao bất thường vào mùa đông.
  • Bất thường tập hợp (collective anomaly): Là một chuỗi hoặc nhóm dữ liệu bất thường khi xét tổng thể, mặc dù từng phần tử có vẻ bình thường.

Bảng dưới đây minh họa sự khác nhau giữa các loại bất thường với ví dụ cụ thể:

Loại bất thường Đặc điểm Ví dụ
Point Đơn lẻ, khác biệt hoàn toàn với phần còn lại Giao dịch $50.000 trong tài khoản chỉ dùng $20/ngày
Contextual Bình thường trong bối cảnh này, bất thường trong bối cảnh khác 25°C tại Bắc Âu vào tháng 12
Collective Chuỗi dữ liệu bất thường khi xét cùng nhau 5 lượt đăng nhập sai liên tiếp trong 1 phút

Các ứng dụng thực tiễn của phát hiện bất thường

Phát hiện bất thường là một trong những giải pháp được triển khai rộng rãi nhất trong các hệ thống giám sát, vì khả năng phản ứng sớm với các mối đe dọa hoặc lỗi hệ thống. Trong tài chính, nó giúp ngăn chặn hành vi gian lận thẻ tín dụng hoặc giao dịch rửa tiền. Nền tảng như FICO đã áp dụng phát hiện bất thường từ dữ liệu giao dịch thời gian thực để phát hiện hành vi bất thường chỉ trong vòng mili giây.

Trong lĩnh vực an ninh mạng, công cụ như Splunk cho phép theo dõi hành vi bất thường trong nhật ký truy cập hệ thống, phát hiện sớm các hành vi truy cập trái phép, malware hoặc tấn công từ chối dịch vụ. Ở y học, mô hình phát hiện bất thường được dùng trong chẩn đoán hình ảnh như MRI hoặc CT để tìm khối u, dị tật, thường dùng trong các mô hình học sâu không giám sát. Tham khảo thêm nghiên cứu tại Nature.

Một số ứng dụng nổi bật khác gồm:

  • Giám sát cảm biến trong nhà máy để phát hiện lỗi máy móc
  • Phân tích hành vi người dùng trên nền tảng thương mại điện tử
  • Phát hiện gian lận bảo hiểm hoặc khai gian dữ liệu

Phương pháp phát hiện bất thường truyền thống

Các phương pháp truyền thống chủ yếu dựa trên kỹ thuật thống kê và phân tích dữ liệu cơ bản. Chúng hoạt động hiệu quả khi dữ liệu có cấu trúc rõ ràng và tuân theo phân phối xác định. Một số kỹ thuật phổ biến:

  • Z-score: Phát hiện giá trị ngoại lai bằng cách đo độ lệch chuẩn so với trung bình, tính bằng công thức: z=xμσz = \frac{x - \mu}{\sigma}
  • Interquartile Range (IQR): Dựa trên khoảng tứ phân vị để loại trừ điểm nằm ngoài vùng [Q1 - 1.5*IQR, Q3 + 1.5*IQR]
  • Phân cụm: Phương pháp như k-means hoặc DBSCAN phát hiện điểm lẻ loi nằm ngoài cụm chính
  • Hồi quy tuyến tính: Ước lượng sai số dự đoán để phát hiện điểm lệch chuẩn

Mặc dù đơn giản và dễ triển khai, các phương pháp này có hạn chế lớn trong việc xử lý dữ liệu phi tuyến, không đồng nhất hoặc khối lượng lớn. Chúng cũng không hiệu quả khi dữ liệu có tính thời gian hoặc không có phân phối rõ ràng.

Vì vậy, trong thực tế, chúng thường được dùng làm bước đầu sàng lọc hoặc kết hợp với các mô hình học máy để nâng cao độ chính xác.

Phát hiện bất thường bằng học máy

Học máy (machine learning) cho phép mô hình hóa các đặc trưng phức tạp trong dữ liệu, từ đó nâng cao hiệu quả phát hiện bất thường trong môi trường thực tế. Các thuật toán học máy cung cấp khả năng mở rộng tốt, xử lý dữ liệu phi tuyến và hỗ trợ mô hình hóa trên tập dữ liệu lớn hoặc không có phân phối rõ ràng.

Dựa trên cách sử dụng dữ liệu nhãn, các phương pháp học máy được chia thành ba nhóm chính:

  • Học có giám sát: Dữ liệu đã được gán nhãn là bất thường hoặc bình thường. Các mô hình như Random Forest, SVM, hoặc XGBoost được huấn luyện để phân biệt hai lớp.
  • Học bán giám sát: Chỉ có dữ liệu bình thường trong tập huấn luyện. Mục tiêu là học mô hình của dữ liệu "chuẩn" rồi phát hiện điểm lệch trong quá trình dự đoán. Phổ biến nhất là One-Class SVM hoặc autoencoder.
  • Học không giám sát: Không cần nhãn dữ liệu. Mô hình cố gắng tìm các điểm có mật độ thấp hoặc khác biệt lớn so với cấu trúc chung, như Isolation Forest hoặc Local Outlier Factor (LOF).

Việc lựa chọn phương pháp phụ thuộc vào khả năng thu thập nhãn, độ mất cân bằng dữ liệu và tính chất của bài toán. Trong nhiều trường hợp, học bán giám sát là chiến lược khả thi nhất vì dữ liệu bất thường thường khan hiếm hoặc khó xác định chính xác.

Phát hiện bất thường trong học sâu

Học sâu (deep learning) mở rộng phạm vi ứng dụng của phát hiện bất thường sang các dạng dữ liệu phi cấu trúc như hình ảnh, video, âm thanh và văn bản. Các mô hình học sâu có thể tự học đặc trưng từ dữ liệu mà không cần thiết kế thủ công đặc trưng đầu vào, đồng thời phát hiện các mối quan hệ phi tuyến phức tạp.

Các kiến trúc học sâu thường dùng gồm:

  • Autoencoder: Một mạng nơron học để mã hóa và giải mã dữ liệu. Sai số tái tạo giữa đầu vào và đầu ra được dùng làm chỉ số bất thường. Nếu sai số cao hơn ngưỡng, điểm đó được coi là bất thường.
  • Variational Autoencoder (VAE): Một biến thể xác suất của autoencoder, học phân phối dữ liệu và tính xác suất xuất hiện của một điểm dữ liệu.
  • GAN (Generative Adversarial Network): Gồm generator tạo dữ liệu giả và discriminator phân biệt dữ liệu thật – bất thường được xác định qua điểm phân biệt yếu.
  • LSTM (Long Short-Term Memory): Mạng nơron hồi tiếp xử lý chuỗi thời gian, giúp phát hiện bất thường theo ngữ cảnh tạm thời như cảm biến công nghiệp hoặc log hệ thống.

Một ví dụ trong y học: mô hình autoencoder huấn luyện trên hình ảnh MRI bình thường, sau đó áp dụng lên hình ảnh mới. Các vùng tổn thương (u, hoại tử) tạo ra sai số tái tạo cao và được phát hiện là bất thường.

Chỉ số đánh giá hiệu quả phát hiện bất thường

Đánh giá mô hình phát hiện bất thường là thách thức do sự mất cân bằng dữ liệu nghiêm trọng – bất thường chiếm tỷ lệ rất nhỏ. Do đó, không thể chỉ dựa vào độ chính xác tổng thể. Cần dùng các chỉ số phản ánh đúng bản chất bài toán.

Các chỉ số chính gồm:

  • Precision: Tỷ lệ phát hiện đúng trên tổng số điểm được xác định là bất thường
  • Recall: Tỷ lệ bất thường thực sự được phát hiện
  • F1-score: Trung bình điều hòa của Precision và Recall, cân bằng giữa phát hiện đúng và đủ
  • ROC-AUC: Đánh giá khả năng phân biệt giữa hai lớp ở các ngưỡng khác nhau
  • PR-AUC: Hiệu quả hơn ROC-AUC trong trường hợp dữ liệu bất thường cực kỳ ít

Với các mô hình dựa trên sai số, có thể đánh giá bằng biểu đồ histogram sai số và chọn ngưỡng tối ưu để tách biệt bất thường. Ngoài ra, có thể dùng các chỉ số như tỷ lệ điểm có z-score vượt quá ngưỡng: z=xμσz = \frac{x - \mu}{\sigma} để định lượng độ lệch của một điểm so với trung bình.

Thách thức trong phát hiện bất thường

Dù đạt được nhiều tiến bộ, phát hiện bất thường vẫn đối mặt với nhiều thách thức. Các vấn đề phổ biến gồm:

  • Dữ liệu mất cân bằng: Bất thường rất ít, dễ bị mô hình bỏ qua
  • Thiếu nhãn: Việc gán nhãn bất thường thường tốn công và không rõ ràng
  • Độ trễ và tính thời gian: Phát hiện trễ làm giảm hiệu quả ứng phó
  • Khả năng diễn giải: Mô hình học sâu thường bị xem là "hộp đen", khó lý giải quyết định

Trong hệ thống thực tế, việc tích hợp mô hình cần chú trọng đến chi phí tính toán, khả năng mở rộng và độ tin cậy trong điều kiện thay đổi dữ liệu liên tục. Một số hướng khắc phục đang được nghiên cứu gồm: mô hình lai (hybrid model), học tăng cường liên tục (continual learning) và kết hợp tri thức miền (domain knowledge).

Xu hướng nghiên cứu hiện đại

Phát hiện bất thường đang dần mở rộng ra các môi trường dữ liệu phức tạp hơn. Một số xu hướng nổi bật gồm:

  • Few-shot learning: Học từ một số mẫu bất thường rất nhỏ, đặc biệt hữu ích trong các ngành như y học hoặc điều tra tội phạm mạng
  • Explainable AI (XAI): Tăng khả năng lý giải của mô hình bằng cách xác định lý do điểm đó bị đánh giá là bất thường
  • Tích hợp dữ liệu thời gian thực: Xử lý dữ liệu truyền phát (streaming), áp dụng trong IoT và hệ thống cảm biến
  • Transfer learning: Chuyển mô hình từ hệ thống đã học sang hệ thống mới có dữ liệu tương tự

Tham khảo nghiên cứu cập nhật tại arXiv:2202.11172, trong đó tổng hợp các phương pháp hiện đại nhất về phát hiện bất thường không giám sát và bán giám sát.

Kết luận

Phát hiện bất thường là một công cụ phân tích thiết yếu trong nhiều ngành công nghiệp và khoa học, cho phép xác định sớm các mối nguy và điểm dị biệt có ý nghĩa. Sự kết hợp giữa học máy, học sâu và AI diễn giải đang tạo điều kiện để xây dựng các hệ thống phát hiện thông minh, hiệu quả và đáng tin cậy hơn.

Với đà phát triển công nghệ, các giải pháp phát hiện bất thường trong tương lai sẽ ngày càng tự động hóa, linh hoạt và thích ứng tốt với các môi trường dữ liệu động và đa chiều.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề phát hiện bất thường:

Chức năng bất thường của tế bào nội mạc và sinh lý bệnh học của bệnh xơ vữa động mạch Dịch bởi AI
Circulation Research - Tập 118 Số 4 - Trang 620-636 - 2016
Chức năng bất thường của lớp nội mạc ở những vùng dễ tổn thương của mạch máu động mạch là một yếu tố quan trọng góp phần vào sinh lý bệnh học của bệnh tim mạch xơ vữa. Bất thường tế bào nội mạc, theo nghĩa rộng nhất, bao gồm một tập hợp các biến đổi không thích ứng trong kiểu hình chức năng, có những tác động quan trọng đến việc điều chỉnh đông máu và huyết khối, trương lực mạch địa phương...... hiện toàn bộ
#chức năng tế bào nội mạc #bệnh xơ vữa động mạch #sinh lý bệnh học #nguy cơ lâm sàng #phát hiện sớm
Một hệ thống lai hiệu quả cho việc phát hiện bất thường trong mạng xã hội Dịch bởi AI
Cybersecurity - Tập 4 Số 1 - 2021
Tóm tắtPhát hiện bất thường đã trở thành một lĩnh vực nghiên cứu thiết yếu và năng động trong khai thác dữ liệu. Nhiều ứng dụng khác nhau, bao gồm các mạng xã hội, đã áp dụng nhiều phương pháp hiện đại khác nhau để xác định bất thường nhằm đảm bảo an ninh và quyền riêng tư cho người dùng. Mạng xã hội đề cập đến một diễn đàn được sử dụng bởi các nhóm người khác nhau...... hiện toàn bộ
Một phương pháp mới để cải thiện hiệu suất tường lửa ứng dụng web dựa trên phương pháp vector hỗ trợ và phân tích yêu cầu Http Dịch bởi AI
Hội thảo nghiên cứu ứng dụng Mật mã và An toàn thông tin - - 2022
Tóm tắt-Số lượng các cuộc tấn công vào hệ thống thông tin đang gia tăng nhanh chóng không chỉ về số lượng mà còn về mức độ nguy hại. Mỗi cuộc tấn công đều hướng đến việc ảnh hưởng đến tính bảo mật, tính toàn vẹn và tính sẵn sàng của thông tin, hầu hết các cuộc tấn công nhằm thu lợi về tài chính, đặc biệt là các cuộc tấn công web vì hầu hết các công ty sử dụng các ứng dụng web cho doanh nghiệp của ...... hiện toàn bộ
#tiêm SQL #XSS #kiểm tra đường dẫn #DDOS #CSRF #phương pháp dựa trên mẫu dấu hiệu #phương pháp phát hiện bất thường #phương pháp học máy #truy vấn HTTP
Ứng dụng kỹ thuật BoBs để phát hiện một số hội chứng mất đoạn nhỏ và lệch bội nhiễm sắc thể thai trong chẩn đoán thai nhi có siêu âm bất thường hệ tim mạch
Tạp chí Phụ Sản - Tập 16 Số 1 - Trang 37 – 41 - 2018
Mục tiêu: Đánh giá giá trị kỹ thuật BoBs trong phát hiện một số hội chứng mất đoạn nhỏ và lệch bội nhiễm sắc thể của thai có siêu âm bất thường hệ tim mạch. Đối tượng và phương pháp nghiên cứu: 100 mẫu dịch ối của các thai phụ có thai ≥ 16 tuần và thai có hình ảnh siêu âm bất thường hệ tim mạch được xét nghiệm bằng kỹ thuật BoBs và xét nghiệm nhiễm sắc thể (NST). Kết quả: Phát hiện 28/100 thai c...... hiện toàn bộ
#BoBs #Bacs-on-Beads #mất đoạn nhỏ #nhiễm sắc thể.
Ứng dụng kỹ thuật BoBs để phát hiện một số bất thường nhiễm sắc thể trong chẩn đoán trước sinh
Tạp chí Phụ Sản - Tập 16 Số 3 - Trang 36-41 - 2019
Mục tiêu: Đánh giá giá trị kỹ thuật Bobs trong phát hiện một số lệch bội và mất đoạn nhỏ nhiễm sắc thể của thai. Đối tượng và phương pháp nghiên cứu: mẫu dịch ối của 1.880 thai phụ có tuổi thai ≥16 tuần đã tham gia chọc ối được xét nghiệm bằng kỹ thuật BoBs và xét nghiệm nhiễm sắc thể (NST) từ tháng 8 năm 2016 đến hết tháng 11 năm 2018 tại Trung tâm Chẩn đoán trước sinh Bệnh viện Phụ Sản Trung uon...... hiện toàn bộ
#BoBs; karyotype; chẩn đoán trước sinh
Các phương pháp phát hiện bất thường cho dữ liệu chứa nhiễu
Tạp chí Nghiên cứu Khoa học và Công nghệ quân sự - Số 79 - Trang 41-51 - 2022
Gần đây, các mô hình biểu diễn không gian ẩn, chẳng hạn như Shrink Autoencoder (SAE), đã thể hiện hiệu năng mạnh mẽ trong việc nâng cao hiệu suất của kỹ thuật phân loại một lớp trong phát hiện bất thường mạng. Tuy nhiên, tập dữ liệu bình thường được dùng để huấn luyện các mô hình đang được giả định là hoàn toàn sạch, không chứa nhiễu và dữ liệu bất thường nào, điều này là khó khả thi trong thực t...... hiện toàn bộ
#Anomaly detection; Latent representation; One-class classification; Contamination.
MỨC ĐỘ ĐỒNG THUẬN CỦA CỘNG HƯỞNG TỪ VÀ SIÊU ÂM TRONG VIỆC PHÁT HIỆN MỘT SỐ BẤT THƯỜNG SỌ NÃO CỦA THAI NHI
Tạp chí Y học Việt Nam - Tập 520 Số 1A - 2022
Mục tiêu: đánh giá mức độ đồng thuận của siêu âm và cộng hưởng từ trong phát hiện các bất thường sọ não thai nhi. Đối tượng và phương pháp nghiên cứu: nghiên cứu tiến cứu mô tả trên 66 trường hợp có chẩn đoán hoặc nghi ngờ bất thường sọ não thai nhi tại Bệnh viện Đại học Y Hà nội. Xử lý số liệu theo phương pháp thống kê y học, sử dụng phần mềm SPSS 20.0. Kết quả: nghiên cứu cho thấy có 98 bất thườ...... hiện toàn bộ
#cộng hưởng từ #chẩn đoán trước sinh #bất thường sọ não thai nhi
PHÁT HIỆN CÁC BẤT THƯỜNG DI TRUYỀN BẰNG KỸ THUẬT LAI VI DÃY SO SÁNH HỆ GEN TRÊN CÁC BỆNH NHÂN CHẬM PHÁT TRIỂN TÂM THẦN VẬN ĐỘNG CHƯA RÕ NGUYÊN NHÂN
Kỹ thuật lai vi dãy so sánh hệ gen (aCGH) được sử dụng khảo sát toàn bộ hệ gen nhằm phát hiện các bất thường mất cân bằng vật chất di truyền cho các bệnh nhân chậm phát triển tâm thần (CPTTT), bất thường hệ thần kinh, bất thường hệ tim mạch, rối loạn phổ tự kỷ, đa dị tật…Mục tiêu: Phát hiện các bất thường di truyền trên các bệnh nhân CPTTT, đa dị tật chưa rõ nguyên nhân.Đối tượng nghiên cứu: Hai b...... hiện toàn bộ
#Chậm phát triển tâm thần #aCGH #Nhiễm sắc thể
DÒ TÌM BẤT THƯỜNG THIẾT BỊ ĐỊNH TUYẾN BẰNG KĨ THUẬT PHÂN LỚP
Tạp chí Khoa học Trường Đại học Sư phạm Thành phố Hồ Chí Minh - Tập 19 Số 11 - Trang 1878 - 2022
Phát hiện sớm tín hiệu bất thường của bộ định tuyến giúp dự đoán lỗi và có phương án thay thế kịp thời. Dữ liệu bất thường được phân tích thông qua dữ liệu cập nhật hoạt động của thiết bị. Bài báo đề xuất cách thức mới để phát hiện dữ liệu bất thường thông qua các kĩ thuật phân lớp dữ liệu. Dữ liệu BGL được sử dụng lại của tổ chức Usenix được gán nhãn theo kinh nghiệm của nhiều chuyên gia. Quá t...... hiện toàn bộ
#phát hiện bất thường #kĩ thuật phân lớp #rút trích đặc trưng #phân loại dòng nhật kí #thiết bị định tuyến
Tổng số: 42   
  • 1
  • 2
  • 3
  • 4
  • 5